在前十天的內容裡,我們一路從 NLP 的基本概念、Transformer、到預訓練模型 (PLM),理解了 BERT、T5、GPT 等經典模型的原理,這些模型推動了 NLP 的快速進步,但真正讓「AI」走進我們生活的是大型語言模型 (LLM, Large Language Model)。
那 LLM 和傳統 PLM 有什麼不同呢?為什麼會在 2022 年底以 ChatGPT 為代表,掀起一場跨世代的革命?
LLM 他其實一樣是一個「語言模型」,一樣是透過預測下一個 token 來學習語言規律,以及理解語意,但他與傳統 PLM 不同的地方是,LLM 的參數量更大,從「億級」到「百億、千億級」的參數量,訓練資料也更大,從「數十億的 token」到「數兆級 token」。
根據大家的共識,只要一個模型能展現湧現能力(Emergent Abilities),例如上下文學習、逐步推理等,就可以被稱為 LLM。
湧現能力 (Emergent Abilities)
湧現能力指的是,當模型規模(參數數量、訓練資料量、計算資源)達到一定程度後,會「突然出現」小模型沒有的新能力,像是可能在數學推理的部分,小模型可能走到第二步就會亂猜,但達到一定規模後,大型模型的準確率會突然急遽增加,或是原本小模型不會翻譯,大模型突然就能做到基本翻譯等。
上下文學習 (In-context Learning)
在GPT-3 首次被提出,強調不需要重新訓練,只要在 Prompt 中給幾個範例(few-shot),模型就能「舉一反三」,對比 PLM,PLM 可能需要大量的標記資料+fine tune,LLM 只要改 Prompt 就可以了。
Instruction Following
透過 Instruction Tuning 讓模型學會理解自然語言指令,不用再針對每個任務單獨做訓練,ChatGPT 之所以受歡迎,就是因為只要輸入一段自然語言,就能讓它完成作文、程式設計、翻譯等任務。
逐步推理 (Step-by-Step Reasoning)
複雜的邏輯一直是 NLP 長久以來的難題,LLM 透過思維鏈 (Chain-of-Thought, CoT)Prompt,可以展現逐步推理能力,讓準確率提升,例如解數學題、邏輯謎題,先把中間步驟寫出來,再得到最終答案。
除了上述提到的核心能力,LLM 還有一些值得注意的特徵: